Day 26 - 從 Copilot Studio Full Experience 淺談大型語言模型戰國時代與未來的應用場景

2025 iThome 鐵人賽

DAY 26

IT 管理

30天 Copilot 企業實戰：助你・助理・代理，從工具到工作流的升級系列第 26 篇

Day 26 - 從 Copilot Studio Full Experience 淺談大型語言模型戰國時代與未來的應用場景

17th鐵人賽 ai copilot solutions architect microsoft

Anthony

2025-10-10 21:46:49

514 瀏覽

分享至

前幾天我們探討了 Copilot Studio Full Experience 的核心功能，並延伸出多種實際應用情境與潛在解決方案，然後今天會將焦點放在更深一層的主題為建立角色的「大腦」。

這不僅是為了打造更廣、更細緻的解決方案思維，也是為了培養一種面對高速變化世界所必備的關鍵思維習慣。

LLM 多元競爭的時代

如果說過去幾年是大型語言模型 (LLM) 技術的萌芽期，那麼 2025 年無疑標誌著我們進入了一個 LLM 技術多元化、供應商充分競爭的成熟階段。

在這個時期市場上出現了眾多優秀的選擇，例如 OpenAI 的 GPT 系列持續創新，Anthropic 的 Claude 家族提供了強大的替代方案，Google 的 Gemini 整合了龐大的生態系，Grok 急起直追像是火箭般發展的新生態系，同時還有眾多開源模型在特定領域表現出色。

就像是這張圖一樣，每隔幾個月新的大型語言模型一推出所以跟 AI 相關的服務很快就可以使用這些模型

對企業而言意味著更多的選擇和更大的彈性，在此背景下 Microsoft Copilot Studio 的定位也日益清晰，它不僅只是一個開發工具，更是一個能夠整合並調度多種 AI 服務的核心平台，接著來探討 Copilot Studio 在這個多模型共存的未來中所扮演的角色與潛在應用。

Copilot Studio 平台演進：從 GPT-4o 到 GPT-5 與 Claude 雙模型策略的戰略佈局

要有效利用當前的 AI 能力，首先需要了解關鍵模型的具體進展。

在快速迭代的人工智慧領域，Microsoft Copilot Studio 始終走在技術整合的前沿，其核心大型語言模型（LLM）的演進與擴展，直接定義了平台的應用深度與廣度。

從最初以 GPT-4o 為基礎，到8月的時候導入 GPT-5 的創新架構，接著很快的在9月宣布整合 Anthropic Claude 系列模型，Copilot Studio 已從單一模型依賴轉變為一個靈活、高效的雙供應商（Dual-Vendor）生態系統，為企業提供前所未有的選擇性與任務適應性。

第一階段：OpenAI GPT 系列的深化演進

Copilot Studio 的發展根基於 OpenAI GPT 系列模型的持續突破，每一代模型的更新都為平台帶來了質的飛躍。

基礎模型 - GPT-4o

Copilot Studio 曾經的預設模型，GPT-4o 以其原生的多模態處理能力奠定了平台的核心功能。

然而其在處理大規模資料時受限的上下文視窗，使其功能逐漸被後續更強大的版本所超越，成為技術演進光譜中的一個重要起點。

效能躍升 - GPT-4.1

此模型的發布標誌著一次全面的效能升級。它在三個關鍵領域實現了顯著提升：

編碼能力：在 SWE-bench 測試中準確率提升了 21.4%，大幅增強了程式碼生成與除錯的可靠性。
指令遵循精確度：更精準理解並執行複雜指令，減少了誤解與偏差。
長文本處理：上下文視窗擴展至 100 萬 tokens，使其能夠處理極長的文檔與複雜對話，為深度分析任務鋪平了道路。結合其優越的成本效益，GPT-4.1 迅速成為執行多數高要求任務的可靠首選。

架構創新 - GPT-5 (2025年8月)

GPT-5 的推出帶來了革命性的架構突破 : 即時路由 (Real-time Router) 機制。此機制能根據任務的複雜度，動態選擇最合適的處理模式，實現了速度、成本與準確性的最佳平衡。

GPT-5 Auto 模式：在此預設模式下，系統會自動分流請求。對於簡單查詢，啟用「快速回應模式」以極大化效率並降低成本，面對複雜問題時則無縫切換至「推理模式」，進行嚴謹的多步驟邏輯分析。
GPT-5 Reasoning 模式：開發者可強制啟用此深度推理模型，專門應對需要極高準確性的專業級任務，例如科學研究、財務建模或關鍵系統的程式碼審查。數據顯示，此模式能將重大錯誤減少 22%，在專家級問題上的準確度提升高達 293%，並在 SWE-bench 上取得了 74.9% 的頂尖成績。

第二階段：戰略擴展 - 整合 Anthropic Claude 系列

2025年9月，Microsoft 宣布將 Anthropic Claude 模型整合至 Copilot Studio，此舉標誌著平台從單一供應商依賴走向雙供應商並行的戰略轉型。

這不僅為開發者提供了更多元的選擇，更透過引入具備獨特優勢的 Claude 模型，補足了特定高風險、長文本分析場景的需求。

Claude 模型系列的核心定位

Claude Opus 4.1 - 深度研究與複雜分析引擎：

核心優勢：擁有超過 20 萬 tokens 上下文處理能力、精準的深度推理能力以及業界聞名的較低幻覺率（Hallucination Rate）。
適用場景：完美勝任法律文件分析、醫療研究報告審閱、財務盡職調查以及複雜程式碼庫的整體審查。
企業價值：在高風險決策場景中，Opus 4.1 提供了一個需要深度思考與多步驟推理的強大工具，確保了分析結果的可靠性與準確性。

Claude Sonnet 4.5 - 平衡效能與成本的多用途模型：

核心優勢：在保持優秀準確性的前提下，提供了更快的反應速度與更高的成本效益。
適用場景：理想適用於日常文件撰寫、客戶服務對話、行銷內容生成及一般程式碼開發等大規模部署的工作負載。
企業價值：為企業提供了一個穩定、高效且經濟的選擇，能夠廣泛應用於日常營運中，全面提升生產力。

Copilot Studio 的演進路徑清晰地展示了一個從「單一強大模型」邁向「多元化、專業化模型組合」的戰略思維。透過 GPT-5 的智慧路由與 Anthropic Claude 系列的專業分工，Microsoft 成功地為企業打造了一個高度靈活的智慧平台。

第一手開箱 Copilot Studio 的 Claude 系列大型語言模型

Copilot Studio 整合 Claude 模型需要經過「雙層管理啟用機制」，首先由全域管理員在 Microsoft 365 Admin Center 啟用 Anthropic 供應商，接著在 Power Platform Admin Center 進行環境層級的控制，最後在 Copilot Studio 的 Agent 設定中選擇 Claude Sonnet 4.5 或 Claude Opus 4.1 作為主要模型。

小提醒 : 當前連接到 Claude 的模型時將傳送至 Anthropic 進行處理，所以如果想要體驗 Claude 模型可以使用微軟的沙箱帳號。

在 Microsoft 365 admin center 開啟的步驟如下

接下來會以統一的指令與問題，快速比較不同模型的回答，並由 Gemini pro 2.5 擔任第三方評審，分析它們在敘述清晰度、邏輯深度與表達風格上的差異，找出各自的亮點與特點。

備註：由於這是基於單一 Prompt 的結果，因此僅是初步觀察，實際的模型表現仍需依照不同場景與多輪對話來進行更細部的比較。
同時，本次評比不會對模型的不足部分作出直接評論，而是著重於各自的優勢與表現特點。

測試的問題集

問題：
一個團隊正在設計一個能回答公司內部常見問答（FAQ）的智慧助理，並決定完全透過 Copilot Studio 來建立。

在設計過程中，他們希望這個助理不只會回覆文字，還能根據使用者的提問主題，自動選擇最合適的回答來源與回應策略。

假設團隊內的 Copilot Studio 具備以下設定：
已建立多個 Topics（主題流程），例如：「差勤規定」、「報銷流程」、「設備報修」。
已匯入兩種 Knowledge Sources：FAQ 文件與 SharePoint 頁面。
啟用了 Generative Answers（生成式回答） 功能。

請回答以下問題：
Copilot Studio 如何在使用者提問時判斷應該啟用哪一個 Topic 或 Knowledge 來源？
若希望助理在回答時能自動補充未被 FAQ 涵蓋的內容，應如何設定 Generative Answers 的行為與安全範圍？

在測試階段，應如何利用 Activity Map 或 Trace 功能 來觀察助理的決策過程？

若之後要將此助理發佈給特定部門使用，請說明可利用哪些方式進行權限與資料來源的治理設定。

選手一 : GPT-4o

GPT-4o 版本的突出內容

相較於其他更複雜的版本，GPT-4o 的答案最為簡潔和直接。它沒有額外的框架或摘要，而是直接針對四個問題提供條列式答案，其突出之處在於：

易讀性與速度：結構最簡單，使用者可以最快地找到對應問題的直接答案，沒有過多技術術語的鋪陳。
基礎性：內容涵蓋了最核心的基礎知識點，適合初學者或只需要快速概覽的使用者。

選手二 : GPT-4.1

GPT-4.1 版本的突出內容

此版本在 GPT-4o 的基礎上增加了結構性和實用性，其突出之處在於：

結構化摘要：開頭的「摘要說明」和結尾的「延伸建議」提供了良好的閱讀框架，幫助使用者快速掌握核心並獲得額外提示。
視覺化標記：使用 🔗 符號標示來源，雖然簡單，但在視覺上區分了內容和參考資料，提升了可讀性。
平衡性：在簡潔與詳細之間取得了不錯的平衡，提供了比 4o 更豐富的資訊（如「主回覆」 vs. 「補充回覆」模式），但又不像後續版本那樣深入技術細節。

選手三 : GPT-5 Auto

GPT-5 Auto 版本的突出內容

此版本展現了顯著的技術深度提升，是第一個明確引入核心概念的版本：

引入核心技術概念：率先點出 Orchestration Mode（協同模式）是決定 Topic 或 Knowledge 來源的關鍵，這是理解 Copilot Studio 決策機制的核心，也是前兩個版本完全遺漏的重點。
互動式提議：結尾提出「是否需要我幫你畫一張『決策流程圖』」，這是一種創新的、主動的互動方式，試圖將複雜的資訊視覺化。
精準的術語：使用了如 Generative Orchestration、Trigger Phrase、DLP (資料外洩防護) 等精確的官方術語，展現了更高的專業性。

選手四 : GPT-5 Reasoning

GPT-5 Reasoning 版本的突出內容

此版本堪稱一份權威的技術白皮書，其深度和嚴謹性超越了所有其他版本：

極致的深度與細節：對「Generative Orchestration」的解釋最為詳盡，甚至包含了已知限制（如 Multiple Topics Matched 的行為）和對話脈絡的限制，這是其他版本沒有的。
最佳實務導向：不僅回答「如何做」，更強調「如何做得更好」，例如提供了「描述撰寫最佳實務」，並建議將 Topic 回覆以「輸出變數」回傳，展現了資深架構師的視角。
前瞻性與風險提示：獨家加入了「版本與更新提醒」，提醒使用者功能可能隨時間演進，這在快速迭代的雲端服務中至關重要。
精確的引用：來源引用不僅是連結，而是直接鏈接到 Microsoft Learn 文件的具體章節，展現了極高的資訊準確性。